两种尺寸的模块化机器人的良好理论模型是边缘连接的方形模块配置,可以通过所谓的滑动移动重新配置。 Dumitrescu和Pach [图形和Combinatorics,2006]证明,始终可以将N $ Squares的一个边缘连接配置重新配置为任何其他使用$ O(n ^ 2)$滑动移动,同时保持配置连接每时每刻。对于某些配置,重新配置可能需要$ \ omega(n ^ 2)$滑动移动。然而,可能就足够较少。我们证明它是难以最小化给定对边缘连接配置的滑动移动的数量。在正面,我们呈现收集和紧凑,一个输入敏感的就地算法只需要$ O(\ bar {p} n)$ slide移动,将一个配置转换为另一个配置,其中$ \ bar {p} $两个边界框的最大周边。正方形仅在边界盒内移动,除了可以通过与边界框相邻的位置移动的时间最多的一个正方形。 $ O(\ bar {p} n)$绑定永远不会超过$ o(n ^ 2)$,并且在只需$ n $和$ \ bar {p} $ 。我们的算法建立在基本原理上,可以有效地转换模块化机器人的良好连接的组件。因此,我们迭代地提高配置内的连接,最终到达一个固体$ xy $-monotone组件。我们实施了聚集&紧凑,并通过实验进行了比较了Moreno和Searist的原始修改,Dumitrescu和PACH算法(MSDP)的[Eurocg 2020]。我们的实验表明,在所有类型的方形配置上,聚集和紧凑始终如一地优于MSDP。
translated by 谷歌翻译
3D autonomous driving semantic segmentation using deep learning has become, a well-studied subject, providing methods that can reach very high performance. Nonetheless, because of the limited size of the training datasets, these models cannot see every type of object and scenes found in real-world applications. The ability to be reliable in these various unknown environments is called domain generalization. Despite its importance, domain generalization is relatively unexplored in the case of 3D autonomous driving semantic segmentation. To fill this gap, this paper presents the first benchmark for this application by testing state-of-the-art methods and discussing the difficulty of tackling LiDAR domain shifts. We also propose the first method designed to address this domain generalization, which we call 3DLabelProp. This method relies on leveraging the geometry and sequentiality of the LiDAR data to enhance its generalization performances by working on partially accumulated point clouds. It reaches a mIoU of 52.6% on SemanticPOSS while being trained only on SemanticKITTI, making it state-of-the-art method for generalization (+7.4% better than the second best method). The code for this method will be available on Github.
translated by 谷歌翻译
基于面部的情感计算包括检测面部图像的情绪。它可以更好地自动理解人类行为是有用的,并且可以为改善人机相互作用铺平道路。但是,它涉及设计情绪的计算表示的挑战。到目前为止,情绪已经在2D价/唤醒空间中连续地表示,或者以Ekman的7种基本情绪为单位。另外,Ekman的面部动作单元(AU)系统也已被用来使用单一肌肉激活的代码手册来粘附情绪。 ABAW3和ABAW4多任务挑战是第一项提供用这三种标签注释的大规模数据库的工作。在本文中,我们提出了一种基于变压器的多任务方法,用于共同学习以预测唤醒,动作单位和基本情绪。从体系结构的角度来看,我们的方法使用任务的令牌方法来有效地建模任务之间的相似性。从学习的角度来看,我们使用不确定性加权损失来建模三个任务注释之间的随机性差异。
translated by 谷歌翻译
本文介绍了合并树木主要测量分析(MT-PGA)的计算框架,这是对著名的主要组件分析(PCA)框架[87]对合并树的瓦斯坦斯坦度量空间[92]的新颖调整。我们将MT-PGA计算作为一个约束优化问题,旨在调整正交测量轴的基础,同时最大程度地减少拟合能量。我们引入了一种有效的,迭代的算法,该算法利用了共享记忆并行性以及拟合能量梯度的分析表达,以确保快速迭代。我们的方法还琐碎地扩展到极值持久图。对公共集合的广泛实验证明了我们方法的效率 - 最大示例中的MT -PGA计算在分钟内进行了计算。我们通过扩展了两个典型的PCA应用程序来展示我们的贡献的实用性。首先,我们将MT-PGA应用于数据降低,并通过以MT-PGA为基础的第一批坐标来可靠地压缩合并树。其次,我们提出一个利用MT-PGA基础的前两个方向来生成合奏的二维布局,提出了一个维度降低框架。我们以持久性相关视图来增强这些布局,从而实现整体和局部视觉检查集合中的特征可变性。在这两种应用中,定量实验评估我们框架的相关性。最后,我们提供了轻巧的C ++实现,可用于复制我们的结果。
translated by 谷歌翻译
机器学习的应用(ML)日益增加,用于许多独特而具有挑战性的科学应用。但是,这些应用面临的至关重要的挑战是它们需要超长延迟和探索器ML功能。鉴于摩尔定律和丹纳德缩放的放缓,再加上科学仪器的快速进步,导致数据速率不断增长,因此需要在极端边缘的超快速ML。边缘的快速ML对于实时减少和过滤科学数据至关重要,以加速科学实验并实现更深刻的见解。为了加速实时科学边缘ML硬件和软件解决方案,我们需要具有足够规格的受限基准任务,以便通常适用且可访问。这些基准可以指导未来Edge ML硬件的设计,用于能够满足纳秒和微秒级延迟要求的科学应用程序。为此,我们介绍了一组科学的ML基准,涵盖了各种ML和嵌入式系统技术。
translated by 谷歌翻译
本文介绍了用于持久图计算的有效算法,给定一个输入分段线性标量字段f在D上定义的d二维简单复杂k,并带有$ d \ leq 3 $。我们的方法通过引入三个主要加速度来扩展开创性的“ Paircells”算法。首先,我们在离散摩尔斯理论的设置中表达了该算法,该算法大大减少了要考虑的输入简单数量。其次,我们介绍了问题的分层方法,我们称之为“夹心”。具体而言,minima-saddle持久性对($ d_0(f)$)和鞍 - 最大持久对($ d_ {d-1}(f)$)是通过与Union-Find-Find-Find-Find-Find-Find-Find-Find-find-find-find-find-find-find-find-find-find-find-find-find-find of nourstable组的1个有效计算的。 - addles和(D-1)addles的稳定集。尺寸为0和(D-1)的快速处理进一步减少,并且大幅度降低了$ d_1(f)$,即三明治的中间层的计算$ d_1(f)$的关键简单数量。第三,我们通过共享记忆并行性记录了几个绩效改进。我们为可重复性目的提供了算法的开源实施。我们还贡献了一个可重复的基准软件包,该基准软件包利用了公共存储库中的三维数据,并将我们的算法与各种公开可用的实现进行了比较。广泛的实验表明,我们的算法提高了两个数量级,即它扩展的开创性“ Paircells”算法的时间性能。此外,它还改善了14种竞争方法的选择,改善了记忆足迹和时间性能,比最快的可用方法具有可观的增长,同时产生了严格的输出。我们通过应用于表面,音量数据和高维点云的持续性一维发电机的快速和稳健提取的应用来说明我们的贡献实用性。
translated by 谷歌翻译
我们介绍了MLPERF小型推理基准(FPGA)平台上MLPERF微小的推理基准的最新结果。我们使用开源HLS4ML和Finn工作流,旨在使FPGA中优化神经网络的AI硬件代码民主化。我们介绍关键字发现,异常检测和图像分类基准任务的设计和实现过程。最终的硬件实现是针对速度和效率量身定制的,可配置的,可配置的空间数据流体系结构,并引入了新的通用优化和作为本工作的一部分开发的常见工作流程。完整的工作流程从量化感知培训到FPGA实施。该解决方案部署在芯片(PYNQ-Z2)和纯FPGA(ARTY A7-100T)平台上。由此产生的提交的潜伏期低至20 $ \ mu $ s和每次推论的低至30 $ \ mu $ j的能耗。我们展示了异质硬件平台上新兴的ML基准如何催化协作和开发新技术和更容易访问的工具。
translated by 谷歌翻译
由于GPU高度平行的架构,GPU受到训练深度学习模型的青睐。结果,大多数有关培训优化的研究都集中在GPU上。但是,在决定如何选择适当的培训硬件时,经常在成本和效率之间进行权衡。特别是,如果对CPU的培训更有效,则CPU服务器可能会有益,因为它们会产生更少的硬件更新成本并更好地利用现有基础架构。本文为使用CPU的培训深度学习模型做出了一些贡献。首先,它提出了一种优化Intel CPU的深度学习模型培训的方法和一个名为ProfileDNN的工具包,我们开发了它来改善性能分析。其次,我们描述了一种通用培训优化方法,该方法指导我们的工作流程,并探讨了几个案例研究,我们确定了绩效问题,然后优化了Pytorch的Intel扩展,从而导致了Retinanet-Resnext50模型的总体2X训练性能提高。第三,我们展示了如何利用ProfileDNN的可视化功能,这使我们能够查明瓶颈并创建一个自定义焦点损失内核,该内核比正式参考Pytorch实现更快。
translated by 谷歌翻译
我们向开放的神经网络交换(ONNX)中间表示格式提出扩展,以表示任意量化的量化神经网络。我们首先通过利用整数剪辑来引入对现有基于ONX的量化格式低精度量化的支持,从而产生了两个新的向后兼容的变体:带有剪辑和量化clip-dequantize(QCDQ)格式的量化运算符格式。然后,我们引入了一种新型的高级ONNX格式,称为量化ONNX(QONNX),该格式介绍了三个新运算符 - Quant,Biporlquant和Trunc,以表示均匀的量化。通过保持QONNX IR高级和灵活性,我们可以针对更广泛的平台。我们还介绍了与QONNX合作的实用程序,以及其在FINN和HLS4ML工具链中使用的示例。最后,我们介绍了QONNX模型动物园,以共享低精确的量化神经网络。
translated by 谷歌翻译
面部表达识别(FER)在许多研究领域至关重要,因为它使机器能够更好地理解人类的行为。 FER方法面临着相对较小的数据集和嘈杂数据的问题,这些数据不允许经典网络良好地概括。为了减轻这些问题,我们指导该模型专注于眼睛,嘴或眉毛等特定面部区域,我们认为这是决定面部表情的决定性的。我们提出了特权归因损失(PAL),该方法通过鼓励其归因图与面部标志形成的热图相对应,从而将模型的注意力引向最显着的面部区域。此外,我们引入了几种渠道策略,使该模型具有更高的自由度。所提出的方法独立于骨干体系结构,并且在测试时不需要其他语义信息。最后,实验结果表明,所提出的PAL方法的表现优于RAF-DB和Actionnet上的当前最新方法。
translated by 谷歌翻译